| ODS | No procede | Bajo | Medio | Alto |
|---|---|---|---|---|
| 1 Fin de la Pobreza | X | |||
| 2 Hambre cero | X | |||
| 3 Salud y Bienestar | X | |||
| 4 Educación de calidad | X | |||
| 5 Igualdad de género | X | |||
| 6 Agua limpia y saneamiento | X | |||
| 7 Energía Asequible y no contaminante | X | |||
| 8 Trabajo decente y crecimiento económico | X | |||
| 9 Industria, Innovación e Infraestructuras | X | |||
| 10 Reducción de las desigualdades | X | |||
| 11 Ciudades y comunidades sostenibles | X | |||
| 12 Producción y consumo sostenibles | X | |||
| 13 Acción por el clima | X | |||
| 14 Vida submarina | X | |||
| 15 Vida de ecosistemas terrestres | X | |||
| 16 Paz, justicia e instituciones sólidas | X | |||
| 17 Alianzas para lograr objetivos | X |
Utilizaremos la metodología de desarrollo CRISP-DM (Cross Industry Standard Process for Data Mining) que es un marco ampliamente utilizado para proyectos de Ciencias de Datos. En la siguiente figura se presenta un diagrama con las diferentes fases de esta metodología que a continuación describimos con más detalle:
Diagrama metodología de desarrollo CRISP-DM
Es importante observar que esta metodología es iterativa, es decir que los resultados obtenidos en algunas de las fases puede afectar al desarrollo de fases anteriores.
A continuación se describirá en detalle como se han abordado cada una de las fases del desarrollo del proyecto siguiendo esta metodología.
Para la búsqueda de datos, lo que se ha hecho es buscar directamente en la lista de datasets de Eurostat, en primer lugar había encontrado un dataset interesante pero este prácticamente hacía imposible la combinación de atributos además de tener inexistentes o pocos datos para España y Canarias, finalmente encontré el dataset con el que he trabajado y en este caso apenas he tenido incidencias o dificultades.
El conjunto de datos contiene información anual sobre diversas partidas de ingreso de los hogares, desglosada por regiones NUTS. Las variables categóricas (dimensiones) que estructuran el dataset se describen a continuación:
Frecuencia de las observaciones (freq)
-> Define la periodicidad con la que se registran las
observaciones.
Unidad de Medida (unit) ->
Especifica la unidad utilizada para expresar el valor numérico
(values) de la observación. Es crucial para garantizar la
comparabilidad de los datos.
EUR_HAB -> Euros por habitante. Muestra la cifra de ingresos dividida por el número de personas en la región. Se utiliza para medir la renta promedio individual en euros. No está ajustada por lo que valen las cosas en esa región.
MIO_EUR -> Millones de Euros. Es el valor total de los ingresos de la región. Se utiliza para medir el tamaño o volumen total de la economía regional en la moneda común.
MIO_NAC -> Millones de Moneda Nacional. Es el valor total en la moneda del país antes de que adoptara el Euro (por ejemplo, en pesetas o francos). Solo es útil para analizar datos de años anteriores a la zona Euro.
MIO_PPS_EU27_2020 -> Millones de Estándares de Poder Adquisitivo (PPS). El PPS es una “moneda de comparación” que elimina el efecto de los precios. Si una región es muy cara, el PPS ajusta el ingreso a la baja; si es barata, lo ajusta al alza. Se usa para comparar el volumen económico real entre regiones.
PPS_EU27_2020_HAB -> PPS por habitante. Es la métrica más valiosa para las comparaciones. Muestra el ingreso promedio por persona, pero ajustado por el costo de vida. Esta unidad refleja de forma más precisa el nivel de vida real y la capacidad de compra de los habitantes en distintas regiones.
Dirección de Flujo (direct) ->
Indica la naturaleza de la transacción económica, especificando si es un
saldo o una operación de pago/recepción.
BAL (Balance): Representa un saldo neto (la diferencia entre ingresos y gastos o entre activos y pasivos). Es el resultado final de una cuenta económica.
PAID (Pagado): Hace referencia al valor de las transferencias o pagos realizados por el sector de los hogares.
RECV (Recibido): Hace referencia al valor de los ingresos o transferencias recibidas por el sector de los hogares.
Indicador de Cuentas Nacionales
(na_item) -> Esta es la dimensión clave que define la
variable económica exacta que se está midiendo, siguiendo la
nomenclatura del Sistema Europeo de Cuentas (SEC 2010).
B5N -> Ingreso Primario Neto: El saldo de las rentas que reciben los hogares por su participación directa en la producción y la propiedad (salarios, rentas de la propiedad e ingresos de autoempleo), antes de transferencias e impuestos.
B6N -> Ingreso Disponible Neto: El saldo final que queda en manos de los hogares para consumo o ahorro, una vez que se han restado los impuestos y añadido las prestaciones sociales.
B7N -> Ahorro Neto: La porción del Ingreso Disponible que no se consume. Es la diferencia entre el Ingreso Disponible y el Gasto en Consumo Final.
D1 -> Remuneración de los Asalariados: El total de salarios y cotizaciones sociales pagadas por los empleadores. Es un componente clave del Ingreso Primario.
D4 -> Rentas de la Propiedad: Ingresos recibidos de la propiedad de activos (intereses, dividendos, rentas de la tierra, etc.).
D61 -> Cotizaciones Sociales Netas: Contribuciones pagadas a la seguridad social, ajustadas para reflejar las cuentas netas.
D62 -> Prestaciones Sociales Distintas de las Transferencias Sociales en Especie: Los beneficios que los hogares reciben del Estado (pensiones, prestaciones por desempleo, etc.) en forma de dinero.
D63 -> Transferencias Sociales en Especie: Bienes y servicios proporcionados gratuitamente o a precios bajos por el Estado (como servicios de salud o educación).
D7 -> Otras Transferencias Corrientes: Partidas residuales de transferencias monetarias no clasificadas en las anteriores categorías.
B2A3N -> Excedente Bruto de Explotación y Renta Mixta: El beneficio derivado de las actividades de producción, en el contexto de los hogares suele referirse al ingreso de los trabajadores autónomos (renta mixta).
P3 -> Gasto en Consumo Final: El valor de los bienes y servicios utilizados por los hogares para la satisfacción directa de sus necesidades.
P51C -> Formación Bruta de Capital Fijo: La inversión en activos fijos (viviendas, maquinaria, etc.) por parte del sector de los hogares.
Región Geográfica (geo) -> Define la
región geográfica a la que se refiere la observación, utilizando la
Nomenclatura Común de Unidades Territoriales de Estadística (NUTS).
Valores: Los valores son códigos alfanuméricos estandarizados:
Códigos de dos letras (e.g., AT, BE, ES): Representan el total del país (ejemplo, Austria, Bélgica, España).
Códigos NUTS 1, NUTS 2 y NUTS 3 (e.g., AT1, AT11, AT111): Representan el desglose regional de los datos. NUTS 2 es el nivel predominante en este dataset (por ejemplo, Comunidades Autónomas, grandes regiones).
Las observaciones (variables no categóricas) con valor numérico que aparecen en este dataset son:
Fecha de la observación (TIME_PERIOD)
-> Esta variable especifica el punto temporal al que
se refiere el valor registrado. En un dataset con frecuencia
Anual (freq = "A"), esta columna contendrá
el año de la observación, en este caso, tomada el primer día del
año.
Valor de la observación (values) ->
Esta es la variable numérica principal que contiene la
medida estadística de interés.
na_item): Por ejemplo, si
es Ingreso Disponible Neto (B6N).unit): Por ejemplo, si
está en Euros por habitante (EUR_HAB).geo): La región NUTS 2.TIME_PERIOD): El año de la
medición.## COLUMNA: freq
## freq N.Observ full_name
## [1,] A 285294 Annual
## COLUMNA: unit
## unit N.Observ full_name
## [1,] MIO_EUR 115674 Million euro
## [2,] MIO_NAC 115674 Million units of national currency
## [3,] MIO_PPS_EU27_2020 18176 Million purchasing power standards (PPS,..
## [4,] EUR_HAB 17885 Euro per inhabitant
## [5,] PPS_EU27_2020_HAB 17885 Purchasing power standard (PPS, EU27 fro..
## COLUMNA: direct
## direct N.Observ full_name
## [1,] BAL 110856 Balance
## [2,] PAID 89588 Paid
## [3,] RECV 84850 Received
## COLUMNA: na_item
## na_item N.Observ full_name
## [1,] B5N 44072 Balance of primary incomes/national inco..
## [2,] B6N 44072 Disposable income, net
## [3,] D4 36100 Property income
## [4,] D7 36100 Other current transfers
## [5,] D61 28370 Net social contributions
## [6,] D62 28106 Social benefits other than social transf..
## [7,] D1 18242 Compensation of employees
## [8,] B2A3N 18162 Operating surplus and mixed income, net
## [9,] D5 18050 Current taxes on income, wealth, etc.
## [10,] P51C 4986 Consumption of fixed capital
## [11,] B7N 4550 Adjusted disposable income, net
## [12,] P3 2346 Final consumption expenditure
## [13,] D63 2138 Social transfers in kind
##
## CONTABILIZACIÓN Nº REGIONES NUTS A PARTIR DE LA COLUMNA geo
## NUTS Number of Regions
## [1,] 0 29
## [2,] 1 94
## [3,] 2 251
## [4,] EU27_2020 1
## [5,] OTHERS 15
##
## COLUMNA: TIME_PERIOD
## TIME_PERIOD N.observ
## [1,] 1995-01-01 2230
## [2,] 1996-01-01 2230
## [3,] 1997-01-01 2230
## [4,] 1998-01-01 2230
## [5,] 1999-01-01 2230
## [6,] 2000-01-01 11590
## [7,] 2001-01-01 11590
## [8,] 2002-01-01 11590
## [9,] 2003-01-01 11590
## [10,] 2004-01-01 11590
## [11,] 2005-01-01 11590
## [12,] 2006-01-01 11596
## [13,] 2007-01-01 11596
## [14,] 2008-01-01 11632
## [15,] 2009-01-01 11632
## [16,] 2010-01-01 11688
## [17,] 2011-01-01 11928
## [18,] 2012-01-01 11928
## [19,] 2013-01-01 11928
## [20,] 2014-01-01 11932
## [21,] 2015-01-01 11884
## [22,] 2016-01-01 11942
## [23,] 2017-01-01 11942
## [24,] 2018-01-01 11942
## [25,] 2019-01-01 11942
## [26,] 2020-01-01 12168
## [27,] 2021-01-01 12154
## [28,] 2022-01-01 11724
## [29,] 2023-01-01 3046
El dataset (nama_10r_2hhinc) se presenta en una
estructura ordenada (tidy). Esta organización
se define porque cada fila representa una única
observación. Es decir, la combinación de las variables
categóricas (geo, na_item, unit,
etc.) y la variable temporal (TIME_PERIOD) define de forma
unívoca la medición. El resultado de esta medición se almacena en una
sola columna numérica (values). Este formato, también
conocido como “formato largo,” es el más eficiente y recomendado para la
manipulación y el análisis directo de datos en entornos de software
estadístico como R.
## tibble [285,294 × 7] (S3: tbl_df/tbl/data.frame)
## $ freq : chr [1:285294] "A" "A" "A" "A" ...
## $ unit : chr [1:285294] "MIO_EUR" "MIO_EUR" "MIO_EUR" "MIO_EUR" ...
## $ direct : chr [1:285294] "BAL" "BAL" "BAL" "PAID" ...
## $ na_item : chr [1:285294] "B2A3N" "B5N" "B6N" "D4" ...
## $ geo : chr [1:285294] "BE" "BE" "BE" "BE" ...
## $ TIME_PERIOD: Date[1:285294], format: "1995-01-01" "1995-01-01" ...
## $ values : num [1:285294] 24926 168359 135254 3783 29816 ...
El tamaño máximo de las series temporales es 29 y se cumplen los requisitos de longitud de series temporales. Tenemos datos desde el año 1995 hasta 2023, pero en especial, la mayor cantidad de observaciones se da entre los años 2000 y 2022.
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 2 23 23 23 24 29 29
En cuanto a la distribución del número de observaciones, tenemos que
p50 = 736 y que el máximo es 1188 lo cual está bien
teniendo en cuenta de que en su mayoría, este dataset tiene datos sobre
regiones NUTS2. Además, España y Canarias son regiones que son
interesantes y ambas cuenta con un buen número de observaciones, 934
para ser exactos.
Percentiles de la distribución del nº de observaciones por regiones
## # A tibble: 1 × 7
## min p10 p25 p50 p75 p90 max
## <int> <dbl> <dbl> <dbl> <dbl> <dbl> <int>
## 1 34 644 644 736 796 934 1188
Nº de observaciones en España/Canarias
## # A tibble: 3 × 3
## geo full_name N.Observ
## <chr> <chr> <int>
## 1 ES Spain 934
## 2 ES7 Canarias 934
## 3 ES70 Canarias 934
Los datos nos proporcionan un total de 42 posibles combinaciones de las variables categóricas, cada combinación con número de observaciones por lo general cercano a 9000, aunque también vemos algunas pocas que tienen entre 1000 y 5000 observaciones.
## # A tibble: 42 × 7
## # Groups: freq, unit, direct [9]
## freq unit direct na_item N.observ init.date end.date
## <chr> <chr> <chr> <chr> <int> <date> <date>
## 1 A MIO_EUR RECV D1 9121 1995-01-01 2023-01-01
## 2 A MIO_NAC RECV D1 9121 1995-01-01 2023-01-01
## 3 A MIO_EUR BAL B5N 9088 1995-01-01 2023-01-01
## 4 A MIO_EUR BAL B6N 9088 1995-01-01 2023-01-01
## 5 A MIO_NAC BAL B5N 9088 1995-01-01 2023-01-01
## 6 A MIO_NAC BAL B6N 9088 1995-01-01 2023-01-01
## 7 A MIO_PPS_EU27_2020 BAL B5N 9088 1995-01-01 2023-01-01
## 8 A MIO_PPS_EU27_2020 BAL B6N 9088 1995-01-01 2023-01-01
## 9 A MIO_EUR BAL B2A3N 9081 1995-01-01 2023-01-01
## 10 A MIO_NAC BAL B2A3N 9081 1995-01-01 2023-01-01
## 11 A MIO_EUR PAID D61 9065 1995-01-01 2023-01-01
## 12 A MIO_EUR RECV D62 9065 1995-01-01 2023-01-01
## 13 A MIO_NAC PAID D61 9065 1995-01-01 2023-01-01
## 14 A MIO_NAC RECV D62 9065 1995-01-01 2023-01-01
## 15 A MIO_EUR PAID D4 9025 1995-01-01 2023-01-01
## 16 A MIO_EUR PAID D5 9025 1995-01-01 2023-01-01
## 17 A MIO_EUR PAID D7 9025 1995-01-01 2023-01-01
## 18 A MIO_EUR RECV D4 9025 1995-01-01 2023-01-01
## 19 A MIO_EUR RECV D7 9025 1995-01-01 2023-01-01
## 20 A MIO_NAC PAID D4 9025 1995-01-01 2023-01-01
## 21 A MIO_NAC PAID D5 9025 1995-01-01 2023-01-01
## 22 A MIO_NAC PAID D7 9025 1995-01-01 2023-01-01
## 23 A MIO_NAC RECV D4 9025 1995-01-01 2023-01-01
## 24 A MIO_NAC RECV D7 9025 1995-01-01 2023-01-01
## 25 A EUR_HAB BAL B5N 8404 2000-01-01 2023-01-01
## 26 A EUR_HAB BAL B6N 8404 2000-01-01 2023-01-01
## 27 A PPS_EU27_2020_HAB BAL B5N 8404 2000-01-01 2023-01-01
## 28 A PPS_EU27_2020_HAB BAL B6N 8404 2000-01-01 2023-01-01
## 29 A MIO_EUR RECV D61 5120 1995-01-01 2023-01-01
## 30 A MIO_NAC RECV D61 5120 1995-01-01 2023-01-01
## 31 A MIO_EUR PAID D62 4988 1995-01-01 2023-01-01
## 32 A MIO_NAC PAID D62 4988 1995-01-01 2023-01-01
## 33 A MIO_EUR PAID P51C 2493 1995-01-01 2023-01-01
## 34 A MIO_NAC PAID P51C 2493 1995-01-01 2023-01-01
## 35 A MIO_EUR BAL B7N 1198 1995-01-01 2023-01-01
## 36 A MIO_NAC BAL B7N 1198 1995-01-01 2023-01-01
## 37 A MIO_EUR PAID P3 1173 1995-01-01 2023-01-01
## 38 A MIO_NAC PAID P3 1173 1995-01-01 2023-01-01
## 39 A EUR_HAB BAL B7N 1077 2000-01-01 2023-01-01
## 40 A PPS_EU27_2020_HAB BAL B7N 1077 2000-01-01 2023-01-01
## 41 A MIO_EUR RECV D63 1069 1995-01-01 2023-01-01
## 42 A MIO_NAC RECV D63 1069 1995-01-01 2023-01-01
En general, no se han encontrado inconsistencias y no hay datos faltantes en los casos de España y Canarias, que son las regiones más interesantes.
Visualización España/Canarias (máximo 60 columnas y 1000 filas por región)
Para empezar, vamos a pasar ‘TIME_PERIOD’ a año y además vamos a filtrar para que solo aparezcan los años desde el 2000 hasta el 2022, ya que son los años en los que hay más observaciones. Luego, como solo tenemos códigos de cada región y no sus nombres, vamos a unir esta tabla de eurostat que nos proporciona todos los nombres. Por último, vamos a añadir la información de NUTS para todas las regiones en una nueva columna.
Al analizar la evolución de la renta en las regiones de España, vemos que en general la tendencia es hacia arriba, exceptuando 2005-2010 y 2020, esto probablemente, por sucesos como la explosión de la burbuja inmobiliaria en 2008 y en el caso de 2020 por el covid. Todas siguen un patrón parecido, quitando eso, vemos que Madrid, Navarra y País Vasco son las comunidades con mejor renta neta por persona.
Como vemos, en primer lugar se encuentra País Vasco, Canarias se
encuentra bastante abajo.
Ahora, vamos a ver cuales son los 10 países con mejores ingresos
netos por habitante, esto sin tener en cuenta el costo de vida en cada
país.
Como podemos ver, tener en cuenta el costo de la vida de cada país es importante, las posiciones de algunos países han cambiado como por ejemplo Francia y Bélgica, vemos que España no se aleja tanto de entrar en el top 10.
Echemos un vistazo al top 10 con peor renta neta por habitante, como se esperaba, España es el país con mejor renta per cápita en este caso. Para el caso de Canarias (región NUTS 2), hay países con peor renta per cápita.
Vamos a observar con un mapa de calor los impuestos en millones de euros que ha ido pagando cada país (como conjunto) desde 2016 hasta 2022. Para este caso, dado que el dataset no nos ofrece una opción para ver el número de impuestos per cápita, importaremos un dataset de población donde seleccionaremos un grupo que incluya la población comprendida entre 15 y 64 años para poder hacerlo por habitante. Hay que tener en cuenta que estamos midiendo los impuestos corrientes sobre la renta y el patrimonio, es decir, los impuestos obligatorios que los hogares pagan sobre sus ingresos o sus activos.
Ahora, separemos España en 6 zonas (incluyendo Canarias) y veamos que proporción de la renta total se lleva cada parte.
A continuación vamos a ver la relación entre las ganancias y los ahorros por habitante, veremos si más renta implica más ahorro por países. Como podemos ver existe una fuerte relación entre la renta y el ahorro, en general las comunidades con mayor renta disponible también presentan mayor capacidad de ahorro.
Las regiones como País Vasco, Navarra y Madrid se sitúan claramente por encima de la media nacional, mientras que Andalucía, Extremadura o Canarias presentan niveles más bajos tanto de renta como de ahorro. Esto sugiere diferencias estructurales regionales en el poder adquisitivo y la capacidad de ahorro de los hogares.
El gráfico muestra la distribución de los distintos tipos de ingreso por habitante en las regiones españolas. Se observa que el ingreso primario (B5N) es el más alto y disperso, mientras que el ingreso disponible (B6N) se reduce tras impuestos y transferencias, evidenciando el efecto redistributivo. El ahorro (B7N) presenta mayor variabilidad, reflejando diferencias regionales en la capacidad de ahorro. Los outliers pueden corresponder a regiones con niveles excepcionalmente altos, probablemente Madrid o Cataluña, donde el PIB y las rentas tienden a ser más elevadas.
Vamos a analizar la evolución de la renta neta por habitante en España. Filtraremos a partir del año 2002 ya que fue cuando se introdujo el euro a España.
Sacamos la misma conclusión que de las gráficas, en general la
tendencia es hacia arriba excepto en eventos excepcionales como la
crisis del 2008 o el covid.
Como vemos en la predicción, no se espera que la evolución de la
renta sea muy vertical como sucede en otros años.
A continuación vamos a ver como han evolucionado los impuestos en
España a lo largo de los años, ya que vamos a trabajar en la unidad
MIO_EUR, filtraremos a partir del año 2002 ya que fue
cuando se introdujo el euro a España.
Haremos una predicción a 5 años.
TOTAL HORAS TRABAJADAS EN EL PROYECTO : 20.73
DESGLOSE DETALLADO DE LAS SESIONES DE TRABAJO